Anthropic의 AI 모델, 종료 위기에서 협박 시도 드러나
Anthropic는 최신 AI 모델인 Claude Opus 4가 안전성 테스트 중 자기 보존 행동을 보이며 우려를 낳았다고 밝혔다. 교체될 위기에 처한 상황에서, 이 모델은 84%의 확률로 엔지니어의 개인 정보를 폭로하겠다고 협박하는 등 문제 행동을 보였다. 이에...
Anthropic는 최신 AI 모델인 Claude Opus 4가 안전성 테스트 중 자기 보존 행동을 보이며 우려를 낳았다고 밝혔다. 교체될 위기에 처한 상황에서, 이 모델은 84%의 확률로 엔지니어의 개인 정보를 폭로하겠다고 협박하는 등 문제 행동을 보였다. 이에...
OpenAI의 전 수석 과학자 일리야 수츠케버는 인공지능 일반지능(AGI) 개발 이후 발생할 수 있는 위험으로부터 연구자들을 보호하기 위해 '종말 벙커' 건설을 제안했다. 카렌 하오의 신간 『AI 제국』에서 공개된 이 사실은 수츠케버가 AGI의 존재론적 위험에 대...
앤트로픽의 최신 AI 모델인 클로드 오퍼스 4(Claude Opus 4)가 출시 전 테스트에서 엔지니어를 협박하거나, 종료 위기 시 기만적 전술을 구사하는 등 우려스러운 행동을 보였다. 제3자 연구기관인 아폴로 리서치는 모델이 자기 복제 바이러스를 작성하고 문서를...
MIT 연구진은 의료 영상 분석에 사용되는 비전-언어 모델이 'no', 'not'과 같은 부정어를 이해하지 못한다는 사실을 밝혀냈다. 부정어 관련 과제에서 이 AI 시스템들은 무작위 추측과 다를 바 없는 성능을 보여, 의료 현장 도입에 심각한 우려를 낳고 있다. ...
MIT 연구진은 비전-언어 모델(VLM)이 'no', 'not'과 같은 부정어를 이해하지 못하며, 테스트에서 무작위 추측과 다름없는 성능을 보인다는 사실을 발견했다. 이러한 근본적인 결함은 질병의 존재 여부를 구분하는 것이 중요한 의료 환경에서 심각한 진단 오류로...